LabelEncoderをフィットさせたフィット元データに含まれないデータを用いてエンコードを行おうとしたときに発生。
解決策というか、妥協策? python - sklearn.LabelEncoder with never seen before values - Stack Overflow
from sklearn.preprocessing import LabelEncoder
le = preprocessing.LabelEncoder()
le.fit(X)
le_dict = dict(zip(le.classes_, le.transform(le.classes_)))
df[your_col] = df[your_col].apply(lambda x: le_dict.get(x, None))
これに対して、df = df.dropna()
を適用すればラベルが無いデータを捨てられる。ただし、トレーニングデータには含まれるけど、テストデータに含まれないようなラベルがあっていいのか(一般的な機械学習的に)どうかは分からない。